Регрессионный анализ

Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных $X_{1},X_{2},...,X_{p}$ на зависимую переменную $Y$ . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна.

Цели регрессионного анализа

Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
Предсказание значения зависимой переменной с помощью независимой(-ых)
Определение вклада отдельных независимых переменных в вариацию зависимой

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть $Y,X_{1},X_{2},\ldots ,X_{p}$ — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений $X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}$ определено условное математическое ожидание

y(x_{1},x_{2},\ldots ,x_{p})=\mathbb {E} (Y\mid X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p})

(уравнение регрессии в общем виде),

то функция $y(x_{1},x_{2},\ldots ,x_{p})$ называется регрессией величины $Y$ по величинам $X_{1},X_{2},\ldots ,X_{p}$ , а её график — линией регрессии $Y$ по $X_{1},X_{2},\ldots ,X_{p}$ , или уравнением регрессии.

Зависимость $Y$ от $X_{1},X_{2},\ldots ,X_{p}$ проявляется в изменении средних значений $Y$ при изменении $X_{1},X_{2},\ldots ,X_{p}$ . Хотя при каждом фиксированном наборе значений $X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}$ величина $Y$ остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение $Y$ при изменении $X_{1},X_{2},...,X_{p}$ , используется средняя величина дисперсии $Y$ при разных наборах значений $X_{1},X_{2},...,X_{p}$ (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: $Y=BX+U$ , где $U$ — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции $Y=b_{0}+b_{1}X_{1}+b_{2}X_{2}+\ldots +b_{N}X_{N}$ (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых ${Y}$ от их оценок ${\hat {Y}}$ (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

\sum _{k=1}^{M}(Y_{k}-{\hat {Y_{k}}})^{2}\to \min

( $M$ — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда $Y=y(x_{1},x_{2},...x_{N})$ .

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

\sigma ({\bar {b}})={\frac {1}{2}}\sum _{k=1}^{M}{(Y_{k}-{\hat {Y}}_{k})^{2}}

Условие минимума функции невязки:

\left\{{\begin{matrix}{\frac {\partial \sigma ({\bar {b}})}{\partial b_{i}}}=0\\i=0...N\end{matrix}}\right.\Leftrightarrow {\begin{cases}\sum \limits _{i=1}^{M}{y_{i}}=\sum \limits _{i=1}^{M}{\sum \limits _{j=1}^{N}{b_{j}x_{i,j}}}+b_{0}M\\\sum \limits _{i=1}^{M}{y_{i}x_{i,k}}=\sum \limits _{i=1}^{M}{\sum \limits _{j=1}^{N}{b_{j}x_{i,j}x_{i,k}}}+b_{0}\sum \limits _{i=1}^{M}{x_{i,k}}\\k=1,\ldots ,N\end{cases}}

Полученная система является системой $N+1$ линейных уравнений с $N+1$ неизвестными $b_{0},\ldots ,b_{N}$ .

Если представить свободные члены левой части уравнений матрицей

B=\left({\begin{matrix}\sum \limits _{i=1}^{M}{y_{i}}\\\sum \limits _{i=1}^{M}{y_{i}x_{i,1}}\\\vdots \\\sum \limits _{i=1}^{M}{y_{i}x_{i,N}}\end{matrix}}\right),

а коэффициенты при неизвестных в правой части — матрицей

A=\left({\begin{matrix}M&\sum \limits _{i=1}^{M}{x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,2}}&...&\sum \limits _{i=1}^{M}{x_{i,N}}\\\sum \limits _{i=1}^{M}{x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,1}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,1}}\\\sum \limits _{i=1}^{M}{x_{i,2}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,2}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,2}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,2}}\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum \limits _{i=1}^{M}{x_{i,N}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,N}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,N}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,N}}\end{matrix}}\right),

то получаем матричное уравнение: $A\times X=B$ , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

X=\left({\begin{matrix}b_{0}\\b_{1}\\\vdots \\b_{N}\end{matrix}}\right)

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещённые оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

Интерпретация параметров регрессии

Параметры $b_{i}$ являются частными коэффициентами корреляции; $(b_{i})^{2}$ интерпретируется как доля дисперсии Y, объяснённая $X_{i}$ , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад $X_{i}$ в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида $X_{1}X_{2}$ , $X_{1}X_{2}X_{3}$ , свидетельствующее о наличии взаимодействий между признаками $X_{1}$ , $X_{2}$ и т. д. (см. Мультиколлинеарность).

См. также

Литература

Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — 912 с. — ISBN 0-471-17082-8.
Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation - und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
Радченко С. Г. Устойчивые методы оценивания статистических моделей. — К.: ПП «Санспарель», 2005. — 504 с. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
Радченко С. Г. Методология регрессионного анализа. — К.: «Корнийчук», 2011. — 376 с. — ISBN 978-966-7599-72-0.

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Регрессионный анализ

Содержание

Цели регрессионного анализа

Математическое определение регрессии

Метод наименьших квадратов (расчёт коэффициентов)

Интерпретация параметров регрессии

См. также

Литература

Навигация

Регрессионный анализ

Цели регрессионного анализа

Математическое определение регрессии

Метод наименьших квадратов (расчёт коэффициентов)

Интерпретация параметров регрессии

См. также

Литература

Навигация

Поиск